DAY7 語音辨識的基礎，來了解語音訊號part1

2023 iThome 鐵人賽

DAY 7

AI & Data

AI與語音辨識系列第 7 篇

15th鐵人賽

meooooow

2023-09-22 09:42:52

945 瀏覽

分享至

早安嗨囉！

今天來聊聊語音辨識的語音訊號，語音到底是怎麼在人體身上產生的，當我們了解人類的發音，就可以為編寫模組找到更好的方向喔！

語音產生的機制

人類發聲會使用到的器官有肺、氣管、喉、聲帶、舌頭及嘴唇等，他們互相合作，並串連彼此，可以參考下圖：

人類的發音過程是一個極其複雜的生理過程，它使我們能夠表達語言、溝通和交流。這個過程從我們的肺部開始，當我們說話時，我們通過呼吸將空氣送入肺部，然後通過肺部肌肉的收縮，將空氣排出。接著，聲帶在喉嚨的頂部起到關鍵作用，它們開合並產生聲音振動，這些振動形成聲音的基礎。當振動的聲音通過口腔時，人們會利用舌頭、嘴巴、唇部等口腔結構來調整聲音，形成不同的音調和音素。在某些音素中，鼻腔也參與發音，通過調整通風來影響音質。在語音分析中，聲帶的震動週期是很重要的參數，它被稱為基音（pitch）週期，而其對應的頻率就是基頻，他們決定了聲音的高低。

聲道是一個聲學諧振腔，聲帶的震動會在聲道內產生共鳴，根據聲道的形狀跟面積不同，會使最後的訊號產生不同的增益，從而決定發出的音最後長怎樣。透過聲帶震動和聲道調變所發出的音，叫做濁音，通常會對應我們所稱的母音，而聲道也可以產生其他的音，就是利用舌頭和聲道互動，形成氣流和腔壁摩擦產生的音，或者氣流突然被釋放，產生像爆破的音，在語言學中稱作摩擦音及摩擦音，這些通常會運用在清音上，在語言辨識的演算法上，得為清音及濁音訊號特徵上的差異加以分辨。

總而言之，語音訊號可以轉變成頻譜及各式樣表來供模型學習，這部分很偏生物知識及理論，這邊只有大概講解聲學訊號，明天就會講解到模型的部分，請好好期待喔！